Top_keywords : agrégation de mots-clefs dans un environnement d'analyse en ligne (OLAP)

نویسندگان

  • Franck Ravat
  • Olivier Teste
  • Ronan Tournier
  • Gilles Zurfluh
چکیده

Résumé. Depuis plus d’une décennie, les travaux de recherche sur OLAP et les bases de données multidimensionnelles ont produit des méthodes, des outils et des moyens d’analyse de données numériques. L’accroissement de la disponibilité des documents numériques entraîne un besoin pour l’ajout de documents XML principalement constitués de données textuelles au sein de bases de données multidimensionnelles et d’un environnement adapté à leur analyse. En réponse à ce besoin, cet article présente une nouvelle fonction d’agrégation permettant l’agrégation de données textuelles au sein d’un environnement OLAP, au même titre que les fonctions d’agrégation arithmétique traditionnelles le permettent pour des données numériques. La fonction TOP_KEYWORD (ou TOP_KW) résume un ensemble de documents par leurs termes les plus significatifs, en employant une fonction de pondération issue de la recherche d’information : tf.idf.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Analyse multidimensionnelle de documents via des dimensions OLAP

RÉSUMÉ. Avec l’émergence de formats de données semi-structurés (tels que XML), le stockage de documents dans un entrepôt centralisé est apparu de façon naturelle comme une adaptation des entrepôts de données. De nos jours, les systèmes OLAP (On-Line Analytical Processing) font face à une part grandissante de données non numériques. Cet article présente un environnement pour l’analyse multidimen...

متن کامل

Modèle de préférences contextuelles pour les analyses OLAP

Les systèmes OLAP (On-Line Analytical Processing) permettent l’analyse de grands volumes de données issues des systèmes transactionnels de l’entreprise. Ils reposent le plus souvent sur des bases de données multidimensionnelles (BDM) qui organisent les données en sujets d’analyse appelés faits, et axes d’analyse appelés dimensions. L’analyse en ligne OLAP consiste à explorer intuitivement les B...

متن کامل

Extraction de mots clefs dans des vidéos Web par Analyse Latente de Dirichlet (LDA-based tagging of Web videos) [in French]

RÉSUMÉ Cet article présente une méthode d’étiquetage de vidéos collectées sur une plate-forme de partage de vidéos. Cette méthode combine un système de reconnaissance de la parole, qui extrait les contenus parlés des vidéos, et un module d’extraction de mots-clefs opérant sur les transcriptions automatiques. La difficulté majeure, dans cette caractérisation de vidéos par un ensemble de mots-cle...

متن کامل

Analyse en ligne d'objets complexes avec l'analyse factorielle

Résumé. Les entrepôts de données et l’analyse en ligne OLAP (On-line Analysis Processing) présentent des solutions reconnues et efficaces pour le processus d’aide à la décision. Notamment l’analyse en ligne, grâce aux opérateurs OLAP, permet de naviguer et de visualiser des données représentées dans un cube multidimensionnel. Mais lorsque les données ou les objets à analyser sont complexes, il ...

متن کامل

Vers l'intégration de la prédiction dans les cubes OLAP

L’analyse en ligne OLAP (On Line Analytical Processing) soutient les entrepôts de données dans le processus d’aide à la décision. Cependant, il n’existe pas d’outils pour guider l’utilisateur dans l’exploration, ni pour approfondir l’analyse vers l’explication et la prédiction. Dans un processus décisionnel, un utilisateur peut vouloir anticiper la réalisation d’évènements futurs. Le couplage d...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2008